捍卫深层神经网络免受对抗性示例是AI安全的关键挑战。为了有效地提高鲁棒性,最近的方法集中在对抗训练中的决策边界附近的重要数据点上。但是,这些方法容易受到自动攻击的影响,这是无参数攻击的合奏,可用于可靠评估。在本文中,我们通过实验研究了其脆弱性的原因,发现现有方法会减少真实标签和其他标签的逻辑之间的利润,同时保持其梯度规范非微小值。减少的边缘和非微小梯度规范会导致其脆弱性,因为最大的logit可以轻松地被扰动翻转。我们的实验还表明,logit边缘的直方图具有两个峰,即小和大的logit边缘。从观察结果来看,我们提出了切换单重损失(SOVR),当数据具有较小的logit rumgins时,它会使用单重损失,从而增加边缘。我们发现,SOVR比现有方法增加了logit的利润率,同时使梯度规范保持较小,并且在针对自动攻击的鲁棒性方面超越了它们。
translated by 谷歌翻译